Recent work has shown that fine-tuning large pre-trained language models on a collection of tasks described via instructions, a.k.a. instruction-tuning, improves their zero and few-shot generalization to unseen tasks. However, there is a limited understanding of the performance trade-offs of different decisions made during the instruction-tuning process. These decisions include the scale and diversity of the instruction-tuning benchmark, different task sampling strategies, fine-tuning with and without demonstrations, training using specialized datasets for reasoning and dialogue, and finally, the fine-tuning objectives themselves. In this paper, we characterize the effect of instruction-tuning decisions on downstream task performance when scaling both model and benchmark sizes. To this end, we create OPT-IML Bench: a large benchmark for Instruction Meta-Learning (IML) of 2000 NLP tasks consolidated into task categories from 8 existing benchmarks, and prepare an evaluation framework to measure three types of model generalizations: to tasks from fully held-out categories, to held-out tasks from seen categories, and to held-out instances from seen tasks. Through the lens of this framework, we first present insights about instruction-tuning decisions as applied to OPT-30B and further exploit these insights to train OPT-IML 30B and 175B, which are instruction-tuned versions of OPT. OPT-IML demonstrates all three generalization abilities at both scales on four different evaluation benchmarks with diverse tasks and input formats -- PromptSource, FLAN, Super-NaturalInstructions, and UnifiedSKG. Not only does it significantly outperform OPT on all benchmarks but is also highly competitive with existing models fine-tuned on each specific benchmark. We release OPT-IML at both scales, together with the OPT-IML Bench evaluation framework.
translated by 谷歌翻译
Co-speech gesture is crucial for human-machine interaction and digital entertainment. While previous works mostly map speech audio to human skeletons (e.g., 2D keypoints), directly generating speakers' gestures in the image domain remains unsolved. In this work, we formally define and study this challenging problem of audio-driven co-speech gesture video generation, i.e., using a unified framework to generate speaker image sequence driven by speech audio. Our key insight is that the co-speech gestures can be decomposed into common motion patterns and subtle rhythmic dynamics. To this end, we propose a novel framework, Audio-driveN Gesture vIdeo gEneration (ANGIE), to effectively capture the reusable co-speech gesture patterns as well as fine-grained rhythmic movements. To achieve high-fidelity image sequence generation, we leverage an unsupervised motion representation instead of a structural human body prior (e.g., 2D skeletons). Specifically, 1) we propose a vector quantized motion extractor (VQ-Motion Extractor) to summarize common co-speech gesture patterns from implicit motion representation to codebooks. 2) Moreover, a co-speech gesture GPT with motion refinement (Co-Speech GPT) is devised to complement the subtle prosodic motion details. Extensive experiments demonstrate that our framework renders realistic and vivid co-speech gesture video. Demo video and more resources can be found in: https://alvinliu0.github.io/projects/ANGIE
translated by 谷歌翻译
在本文中,我们提出了一种新颖的学习方案,用于自我监督的视频表示学习。受到人类如何理解视频的激励,我们建议先学习一般视觉概念,然后参加歧视性的局部区域以进行视频理解。具体而言,我们利用静态框架和框架差异来帮助解开静态和动态概念,并分别使潜在空间中的概念分布对齐。我们增加了多样性和忠诚的正常化,以确保我们学习一套紧凑的有意义的概念。然后,我们采用跨注意机制来汇总不同概念的详细局部特征,并滤除具有低激活的冗余概念以执行局部概念对比。广泛的实验表明,我们的方法提炼有意义的静态和动态概念来指导视频理解,并在UCF-101,HMDB-51和潜水-48上获得最新的结果。
translated by 谷歌翻译
神经隐式表示在新的视图合成和来自多视图图像的高质量3D重建方面显示了其有效性。但是,大多数方法都集中在整体场景表示上,但忽略了其中的各个对象,从而限制了潜在的下游应用程序。为了学习对象组合表示形式,一些作品将2D语义图作为训练中的提示,以掌握对象之间的差异。但是他们忽略了对象几何和实例语义信息之间的牢固联系,这导致了单个实例的不准确建模。本文提出了一个新颖的框架ObjectsDF,以在3D重建和对象表示中构建具有高保真度的对象复合神经隐式表示。观察常规音量渲染管道的歧义,我们通过组合单个对象的签名距离函数(SDF)来对场景进行建模,以发挥明确的表面约束。区分不同实例的关键是重新审视单个对象的SDF和语义标签之间的牢固关联。特别是,我们将语义信息转换为对象SDF的函数,并为场景和对象开发统一而紧凑的表示形式。实验结果表明,ObjectSDF框架在表示整体对象组合场景和各个实例方面的优越性。可以在https://qianyiwu.github.io/objectsdf/上找到代码
translated by 谷歌翻译
基因本体论(GO)是能够在生物医学中实现计算任务的主要基因功能知识基础。 GO的基本元素是一个术语,其中包括一组具有相同功能的基因。 GO的现有研究工作主要集中于预测基因术语关联。很少追求其他任务,例如生成新术语的描述。在本文中,我们提出了一项新颖的任务:GO术语描述生成。该任务旨在自动生成一个句子,该句子描述了属于这三个类别之一的GO术语的功能,即分子功能,生物过程和细胞分量。为了解决此任务,我们提出了一个可以有效利用GO结构信息的图形网络。提出的网络引入了两层图:第一层是GO术语的图形,每个节点也是一个图(基因图)。这样的图形网络可以得出GO术语的生物学功能并生成适当的描述。为了验证拟议网络的有效性,我们构建了三个大规模基准数据集。通过合并所提出的图形网络,可以在所有评估指标中显着提高七个不同序列与序列模型的性能,其中BLEU,Rouge-rouge-相对改善高达34.7%,14.5%和39.1% L和流星。
translated by 谷歌翻译
作为一个有前途的分布式机器学习范式,联合学习(FL)在不影响用户隐私的情况下培训具有分散数据的中央模型,这使得其被人工智能互联网(AIT)应用程序广泛使用。然而,传统的流体遭受了模型不准确,因为它会使用数据硬标签培训本地模型,并忽略与小概率不正确的预测的有用信息。虽然各种解决方案尽量解决传统流域的瓶颈,但大多数人都引入了显着的通信和记忆开销,使大规模的AIOT设备部署成为一个巨大的挑战。为了解决上述问题,本文提出了一种基于蒸馏的新型联合学习(DFL)架构,可实现AIT应用的高效准确。灵感来自知识蒸馏(KD),可以提高模型准确性,我们的方法将KD使用的软目标添加到FL模型培训,占用可忽略不计的网络资源。在每轮本地训练之后,通过每种充气设备的局部样品预测生成软目标,并用于下一轮模型训练。在DFL的本地培训期间,软目标和硬质标签都被用作模型预测的近似目标,以通过补充软目标的知识来提高模型准确性。为了进一步提高DFL模型的性能,我们设计了一种动态调整策略,用于调整KD中使用的两个损耗功能的比率,这可以最大限度地利用软目标和硬质标签。众所周知的基准测试的全面实验结果表明,我们的方法可以显着提高独立和相同分布(IID)和非IID数据的FL的模型精度。
translated by 谷歌翻译
记住和遗忘机制是人类学习记忆系统中同一硬币的两侧。灵感来自人类脑记忆机制,现代机器学习系统一直在努力通过更好地记住终身学习能力的机器,同时推动遗忘为敌人来克服。尽管如此,这个想法可能只能看到半张图片。直到最近,越来越多的研究人员认为,大脑出生忘记,即忘记是抽象,丰富和灵活的陈述的自然和积极的过程。本文通过人工神经网络积极遗忘机制提出了一种学习模型。主动遗忘机制(AFM)通过“即插即用”遗忘层(P \&PF)引入神经网络,由具有内部调节策略(IRS)的抑制神经元组成,以调整自己的消光率通过横向抑制机制和外部调节策略(ERS)通过抑制机制调节兴奋性神经元的消光速率。实验研究表明,P \&PF提供了令人惊讶的益处:自适应结构,强大的泛化,长期学习和记忆,以及对数据和参数扰动的鲁棒性。这项工作阐明了忘记学习过程的重要性,并提供了新的视角,了解神经网络的潜在机制。
translated by 谷歌翻译
医疗报告生成,旨在自动产生对特定医学形象的长期和连贯的报告,一直受到越来越多的研究兴趣。现有方法主要采用受监督的方式和大量依赖耦合图像报告对。但是,在医疗领域,建立大规模的图像报告配对数据集既耗时又昂贵。为了放宽对配对数据的依赖性,我们提出了一个无人监督的模型知识图形自动编码器(KGAE),它接受独立的图像集和报告。 KGAE由预构建的知识图形,知识驱动的编码器和知识驱动的解码器组成。知识图形作为桥接视觉和文本域的共享潜在空间;知识驱动的编码器将医学图像和报告报告到该潜在空间中的相应坐标,并且知识驱动的解码器在此空间中给出了坐标的医疗报告。由于知识驱动的编码器和解码器可以用独立的图像和报告培训,因此kgae是无监督的。实验表明,未经审计的KGAE在不使用任何图像报告培训对的情况下产生所需的医疗报告。此外,KGAE还可以在半监督和监督的环境中工作,并在培训中接受配对图像和报告。通过使用图像报告对进行进一步微调,KGAE始终如一地优于两个数据集上的当前最先进的模型。
translated by 谷歌翻译
视频字幕结合了视频理解和语言生成。与图像标题不同,描述具有几乎每个对象的细节的静态图像,视频字幕通常考虑一系列帧和偏置朝向聚焦对象的偏差,例如,保持焦点的对象,无论更改的背景如何。因此,检测和适当地容纳聚焦对象在视频字幕中是至关重要的。为了执行聚焦对象的描述并实现可控制的视频标题,我们提出了一种面向对象的非自动增加方法(O2NA),其执行三个步骤中的标题生成:1)识别聚焦对象并预测其在目标字幕中的位置; 2)生成相关的属性词和这些聚焦对象的关系词来形成标题草案; 3)将视频信息组合以将标题草案精炼到流利的最终标题。由于产生了聚焦的对象并领先于其他单词,因此难以应用逐字的自回归生成过程;相反,我们采用了非自动评级方法。在两个基准数据集,即MSR-VTT和MSVD上的实验证明了O2NA的有效性,这实现了与最先进的结果竞争,但具有更高的多样性和推理速度。
translated by 谷歌翻译
最近,胸部X射线报告生成,旨在自动生成给定的胸部X射线图像的描述,已得到越来越多的研究兴趣。胸部X射线报告生成的关键挑战是准确捕获和描述异常区域。在大多数情况下,普通区域主导整个胸部X射线图像,并且这些普通区域的相应描述主导了最终报告。由于这种数据偏差,基于学习的模型可能无法参加异常区域。在这项工作中,为了有效地捕获和描述异常区域,我们提出了对比的注意(CA)模型。 CA模型而不是仅专注于电流输入图像,而是将电流输入图像与正常图像进行比较以蒸馏对比信息。获得的对比信息可以更好地代表异常区域的视觉特征。根据公共IU-X射线和模仿-CXR数据集的实验,将我们的CA纳入几个现有型号可以在大多数指标上提升它们的性能。此外,根据分析,CA型号可以帮助现有的模型更好地参加异常区域,并提供更准确的描述,这对可解释的诊断至关重要。具体而言,我们在两个公共数据集上实现最先进的结果。
translated by 谷歌翻译